Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.
translated by 谷歌翻译
我们表明,诸如Stylegan和Biggan之类的预训练的生成对抗网络(GAN)可以用作潜在银行,以提高图像超分辨率的性能。尽管大多数现有面向感知的方法试图通过以对抗性损失学习来产生现实的产出,但我们的方法,即生成的潜在银行(GLEAN),通过直接利用预先训练的gan封装的丰富而多样的先验来超越现有实践。但是,与需要在运行时需要昂贵的图像特定优化的普遍的GAN反演方法不同,我们的方法只需要单个前向通行证才能修复。可以轻松地将Glean合并到具有多分辨率Skip连接的简单编码器银行decoder架构中。采用来自不同生成模型的先验,可以将收集到各种类别(例如人的面孔,猫,建筑物和汽车)。我们进一步提出了一个轻巧的Glean,名为Lightglean,该版本仅保留Glean中的关键组成部分。值得注意的是,Lightglean仅由21%的参数和35%的拖鞋组成,同时达到可比的图像质量。我们将方法扩展到不同的任务,包括图像着色和盲图恢复,广泛的实验表明,与现有方法相比,我们提出的模型表现出色。代码和模型可在https://github.com/open-mmlab/mmediting上找到。
translated by 谷歌翻译
测量视觉内容的感知是计算机视觉中的一个长期问题。已经开发了许多数学模型来评估图像的外观或质量。尽管此类工具在量化诸如噪声和模糊水平之类的降解方面具有有效性,但这种量化与人类语言松散结合。当涉及到对视觉内容感觉的更抽象的看法时,现有方法只能依靠受监督的模型,这些模型是通过经过艰苦的用户研究收集的标记数据明确培训的。在本文中,我们通过探索在对比的语言图像预训练(剪辑)模型中探索丰富的视觉语言,超越了传统的范例,以评估质量感知(外观)和抽象感知(感受)的图像中的零 - 示意。特别是,我们讨论有效的及时设计,并展示有效的及时配对策略来利用先验。我们还提供对受控数据集和图像质量评估(IQA)基准测试的广泛实验。我们的结果表明,剪辑捕获了有意义的先验,可以很好地推广到不同的感知评估。代码将在https://github.com/iceclear/clip-iqa上可用。
translated by 谷歌翻译
盲面修复是一个高度不良的问题,通常需要辅助指导至1)改进从退化输入到所需输出的映射,或2)补充输入中丢失的高质量细节。在本文中,我们证明了在一个较小的代理空间中的一本学识渊博的代码书在很大程度上降低了恢复映射的不确定性和模棱两可,通过将盲面修复作为代码预测任务,同时为产生高质量的面孔提供丰富的视觉原子。在此范式下,我们提出了一个基于变压器的预测网络,名为CodeFormer,以模拟代码预测的低质量面孔的全局构图和上下文,从而使发现自然面,即使输入严重,也紧密近似目标面退化。为了增强不同降解的适应性,我们还提出了一个可控的特征转换模块,该模块可以在忠诚度和质量之间进行灵活的权衡。得益于表达的代码书的先验和全球建模,CodeFormer的质量和忠诚度都优于艺术状态,从而表现出优势的降级性。关于合成和现实世界数据集的广泛实验结果验证了我们方法的有效性。
translated by 谷歌翻译
长期信息的开发一直是视频恢复的一个长期问题。最近的BASICVSR和BASICVSR ++通过长期传播和有效的对齐方式在视频超分辨率方面表现出色。他们的成功导致了一个问题,即是否可以将它们转移到不同的视频修复任务中。在这项工作中,我们将BASICVSR ++扩展到用于视频恢复任务的通用框架。在输入和输出具有相同空间尺寸的任务中,输入分辨率通过稳定的卷积以维持效率而降低。只有从BASICVSR ++进行的最小变化,所提出的框架在各种视频恢复任务中都具有出色的效率,包括视频Deblurring和DeNoising。值得注意的是,BASICVSR ++的性能与基于变压器的方法相当,最多占参数降低和44倍加速的79%。有希望的结果表明,不仅仅是视频超级分辨率,在视频恢复任务中传播和对齐的重要性。代码和型号可在https://github.com/ckkelvinchan/basicvsr_plusplus上找到。
translated by 谷歌翻译
现实世界视频超分辨率(VSR)降解的多样性和复杂性构成了推理和培训中的非琐碎挑战。首先,虽然长期繁殖导致在轻度降解的情况下提高性能,但通过传播可以夸大严重的野外降解,损害输出质量。为了平衡细节合成和工件抑制之间的权衡,我们发现在传播之前减少噪声和伪像的图像预清洁阶段。我们的RealBasicVSR配备了精心设计的清洁模块,以质量和效率为现有的现有方法。其次,现实世界的VSR模型通常受到多样化的培训,以提高普遍性,需要增加批量尺寸以产生稳定的梯度。不可避免地,增加的计算负担导致各种问题,包括1)速度 - 性能权衡和2)批量长期权衡。为了缓解第一个权衡,我们提出了一种随机退化计划,可在不牺牲性能的情况下减少高达40%的培训时间。然后,我们分析了不同的训练环境,并建议在训练期间使用更长的序列而不是较大的批次,允许更有效的时间信息使用,导致推论期间的性能更稳定。为了便于公平的比较,我们提出了新的Videolq数据集,其中包含含有丰富纹理和模式的大量现实较低的视频序列。我们的数据集可以作为基准测试的共同点。代码,模型和数据集将公开可用。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
Video restoration tasks, including super-resolution, deblurring, etc, are drawing increasing attention in the computer vision community. A challenging benchmark named REDS is released in the NTIRE19 Challenge. This new benchmark challenges existing methods from two aspects:(1) how to align multiple frames given large motions, and (2) how to effectively fuse different frames with diverse motion and blur. In this work, we propose a novel Video Restoration framework with Enhanced Deformable convolutions, termed EDVR, to address these challenges. First, to handle large motions, we devise a Pyramid, Cascading and Deformable (PCD) alignment module, in which frame alignment is done at the feature level using deformable convolutions in a coarse-to-fine manner. Second, we propose a Temporal and Spatial Attention (TSA) fusion module, in which attention is applied both temporally and spatially, so as to emphasize important features for subsequent restoration. Thanks to these modules, our EDVR wins the champions and outperforms the second place by a large margin in all four tracks in the NTIRE19 video restoration and enhancement challenges. EDVR also demonstrates superior performance to state-of-the-art published methods on video super-resolution and deblurring. The code is available at https://github.com/xinntao/EDVR.
translated by 谷歌翻译
Majorana示威者是一项领先的实验,寻找具有高纯净锗探测器(HPGE)的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法,但是与传统分析相比,数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑,使我们能够从机器中学习以反馈传统分析。在这项工作中,我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型,以从数据中学习,并进行了基于游戏理论的模型可解释性研究,以了解分类功率的起源。通过从数据中学习,该分析识别重建参数之间的相关性,以进一步增强背景拒绝性能。通过从机器中学习,该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验(如传说)高度兼容,因为它可以同时在大量探测器上进行训练。
translated by 谷歌翻译
抽象推理是智能系统的关键能力。大型语言模型在抽象推理任务上实现了高度的性能,但表现出许多缺陷。但是,人类的抽象推理也是不完美的,并且取决于我们对推理问题内容的知识和信念。例如,人类对在日常情况下基于逻辑规则的逻辑规则比关于抽象属性的任意规则更可靠地理解。语言模型的培训经验类似地赋予了他们先前的期望,这些期望反映了人类的知识和信念。因此,我们假设语言模型会显示出类似人类的内容对抽象推理问题的影响。我们在三个逻辑推理任务中探讨了这一假设:自然语言推论,判断三段论的逻辑有效性和ison选择任务(Wason,1968)。我们发现,最新的大语言模型(具有7或700亿个参数; Hoffman等,2022)反映了这些任务中人类在人类中观察到的许多相同模式 - 像人类一样,模型对可信情况的理由更有效地理由不现实或抽象的。我们的发现对理解这些认知效应以及有助于语言模型表现的因素具有影响。
translated by 谷歌翻译